IVA 510

Çapraz Doğrulama ve Bootstrapping

I. Ozkan

Bahar 2025

Ön Okumalar

An Introduction to Statistical Learning with Applications in R, Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani, Chapter 5
Introduction to Data Science, Rafael A. Irizarry, Chapter 29
Resampling Methods, UC Business Analytics R Programming Guide

Öğrenme Hedefleri

(k-fold) Çapraz Doğrulama
Tekrarlanmış Çapraz Doğrulama
Birini-Dışarda-Bırak (Leave-One-Out) Çapraz Doğrulama
Örnekleme (Bootstrap) ve Bootstrapping

Doğrulama Yaklaşımı

Veri kümesi iki alt kümeye ayrılır. Bunlara eğitim verisi and test verisi (validation set, hold-out set) (sıklıkla da doğrulama veya tutma-hold out- yaklaşımı)
Eğitim verisi, modeli oluşturmak (parametre tahminleri) için kullanılır; test verisi ise modelin performansını değerlendirmek için (modele yeni olan gözlemler kullanılarak) kullanılır
Öğrenme verileri ile oluşan hatalar, test verileri ile elde edilen hatalardan genellikle farklıdır. Test verileri ile elde edilen hatalar genellikle çok daha yüksektir
Test hata oranını daha iyi tahmin edebilmek için, yaklaşımlardan biri; eğitim gözlemlerinin bir alt kümesini modelin oluşturulma sürecinden ayırmak ve ardından istatistiksel öğrenme yöntemini bu ayrılan gözlemler üzerinde uygulamaktır

Gösterim için Bir Örnek

Eğer bağımlı değişken ile bağımsız değişkenler arasında doğrusal olmayan bir ilişki varsa, polinom regresyonu kullanılabilir. Bu durumda polinom derecesinin seçimi önemlidir
Tahmin edilen katsayılar p-değerleri ile değerlendirilebilir
Kalibrasyon, model seçimi ve katsayıların değerlendirilmesi doğrulama veri seti kullanılarak yapılabilir (Model Değerlendirme)
Örnek: Açıklama için ISLR paketindeki auto veri seti kullanılmıştır

ISLR Paketi auto Data
mpg	cylinders	displacement	horsepower	weight	acceleration	year	origin	name
18	8	307	130	3504	12.0	70	1	chevrolet chevelle malibu
15	8	350	165	3693	11.5	70	1	buick skylark 320
18	8	318	150	3436	11.0	70	1	plymouth satellite
16	8	304	150	3433	12.0	70	1	amc rebel sst
17	8	302	140	3449	10.5	70	1	ford torino
15	8	429	198	4341	10.0	70	1	ford galaxie 500

Gösterim için Bir Örnek

Doğrulama verileri, eğitim ve test verileri rastgele seçilerek elde edilir. Bu örnekte, gözlemlerin %30’u doğrulama için rastgele seçilmiştir
Gösterilen modeller polinom (ortogonal) modellerdir. Doğrusal model şu şekildedir: \(mpg=\beta_0+\beta_1 \cdot horsepower+\varepsilon\)
Hem eğitim hem de test veri kümeleri için \(MSE\)’deki değişimi değerlendirin

Gösterim için Bir Örnek

Önceki örneği çok kez tekrarlayabiliriz. Örneğin, aşağıdaki grafik bu işlemin 10 kez tekrarlandığı durumu göstermektedir
Farklı polinom dereceleri kullanılarak rastgele seçilen her bir eğitim ve test veri kümeleri için elde edilen MSE değerleri gösterilmiştir

Örnek

Hem önceki slaytta verilen grafik hem de aşağıda verilen tabloya bakıldığında, test verilerine ait MSE değerleri ikinci dereceden bir polinom kullanılmasını önermektedir; çünkü polinom derecesinin artırılması, rastgele ayrılmış tüm örneklemler için önemli ölçüde bir performans artışı sağlamamaktadır
Modeli oluşturmak için rastgele seçilen eğitim verileri kullanıldığından, Test verilerine ait MSE değerleri genellikle büyük tahmin edilmektedir (bu durum önceki slayttaki grafikte görülmektedir)

Minimum MSE Değerleri ve Polinom Derecesi, Tüm Örneklemler
Polinom Derecesi	Min. Eğitim MSE	Min. Test MSE
1	22.291	20.416
2	17.493	16.767
3	17.350	16.701
4	17.273	16.674
5	16.817	16.025
6	16.674	15.710
7	16.529	15.381
8	16.529	15.420
9	16.522	15.667
10	16.517	16.088

Birini-Dışarda-Bırak Çapraz Doğrulama (LOOCV)

Doğrulama verileri yaklaşımına benzer, ancak burada doğrulama verileri yalnızca bir gözlem içerir
Her bir test gözlemi için, \((x_j, y_j), : j = 1, 2, \dots, n\) geri kalan \(n-1\) gözlem eğitim seti olarak kullanılır, ardından \(\hat y_j\) tahmin edilir ve \(MSE_j = (y_j - \hat y_j)^2\) hesaplanır
Test hatası MSE’lerinin ortalaması, LOOCV (Leave-One-Out Cross-Validation) tahminini verir

\(CV_{(n)} = \frac{1}{n}\sum^n_{i=1}MSE_i\)

Doğrusal model için LOOCV tahmini,

\(mpg_i=\beta_0+\beta_1horsepower_i+\varepsilon_i\) için: 24.232

Aşağıdaki grafik, birden ona kadar olan polinom dereceleri için LOOCV tahminlerini göstermektedir. İkinci dereceden sonra belirgin bir iyileşme görülmemektedir

k-Fold Çapraz Doğrulama

LOOCV yaklaşımı, büyük veri setleri için hesaplama açısından oldukça maliyetlidir
Alternatif bir yöntem olarak k-Katlı Çapraz Doğrulama kullanılabilir
Veri rastgele, eşit boyutlu k gruba (fold) ayırılır
İlk grup doğrulama verileri olarak kullanılır, kalan verilerle model kurulur. Doğrulama verileri ile \(MSE_1\) değeri hesaplanır
Bu adım kalan k-1 grup için tekrar edilir ve \(MSE_j, : j = 2, \dots, k\) değerleri hesaplanır
Böylece, k-katlı Çapraz Doğrulama tahmini elde edilir.

\(CV_{(k)} = \frac{1}{k}\sum^k_{j=1}MSE_j\)

k-Fold

LOOCV, k-katlı yaklaşımın özel bir durumudur; burada k, gözlem sayısına eşittir
Beş - on kat (fold) kullanılması genel olarak iyi tahminler üretir

Örnekleme (Bootstrapping)

Örnekleme (Bootstrapping), belirli bir tahmin ediciye (estimator) ilişkin belirsizliği niceliksel olarak değerlendirmek için kullanılan oldukça güçlü bir istatistiksel araçtır
Bu yöntem, veri kümesinden tekrar tekrar ve yerine geri koymalı (with replacement) bağımsız örneklemler çekmeyi içerir
Aşağıdaki grafikte, üç gözlemli bir veri kümesi (n=3) ve bu kümeden çekilen örneklemler gösterilmektedir

Her bir bootstrap veri kümeleri, \(Z^{*1}, Z^{*2}, \dots, Z^{B}\) şeklinde üç gözlem (n=3) içerir ve ilgilendiğimiz tahmin edici istatistiği (örneğin \(\hat \alpha\)) hesaplamak için kullanılır
Tüm bootstrap veri kümeleri, \(\hat\alpha^{*1}, \hat\alpha^{*2}, \dots, \hat\alpha^{*B}\) değerlerinin standart hatasını hesaplamak için kullanılır

\(SE_B(\hat\alpha) = \sqrt{\frac{1}{B-1}\sum^B_{r=1}\bigg(\hat\alpha^{*r}-\frac{1}{B}\sum^B_{r'=1}\hat\alpha^{*r}\bigg)^2}\)

Örnekleme (Bootstrap): Örnek (ISLR, page 187)

“Diyelim ki sabit bir miktar para ile, getirileri sırasıyla \(X\) ve \(Y\) olan iki finansal varlığa yatırım yapmak istiyoruz; burada \(X\) ve \(Y\) rastgele değişkenlerdir. Paramızın \(\alpha\) oranındaki kısmını \(X\)’e, kalan \((1 - \alpha)\) kısmını ise \(Y\)’ye yatıracağız.”
Varyans risk ölçütü olarak kullanıldığından, amacımız varyansı minimize etmek yani \(Var(\alpha X + (1 - \alpha) Y)\) ifadesini en aza indirmektir. Riski minimize eden tahmini \(\hat \alpha\) değeri ise:

\(\hat\alpha = \frac{\hat\sigma^2_Y - \hat\sigma_{XY}}{\hat\sigma^2_X +\hat\sigma^2_Y-2\hat\sigma_{XY}}\)

ISLR paketindeki Portfolio verisi için tahmin edilen \(\hat \alpha\) değeri 0.5758
10 Örnekleme (Bootstrapped) için tahmin edilen \(\hat \alpha\) değerleri aşağıda gösterilmektedir

Bootstrap	Alpha
1	0.4483
2	0.5609
3	0.5053
4	0.6836
5	0.6108
6	0.5820
7	0.5013
8	0.5379
9	0.6151
10	0.5374

Ortalama tahmin: \(\hat \alpha=0.5583\) olarak bulunmaktadır
1000 bootstrap örneklemi ile elde edilen \(\hat \alpha\) tahmin değerlerinin dağılımı ise


ORDINARY NONPARAMETRIC BOOTSTRAP


Call:
boot(data = Portfolio, statistic = statistic, R = 1000)


Bootstrap Statistics :
     original      bias    std. error
t1* 0.5758321 0.004719558  0.09020046

Örnekleme (Bootstrap) Regresyon Örneği

AER paketindeki ücret ve eğitim (wage and education) verilerini kullanarak doğrusal regresyon modeli oluşturabiliriz
Veri, \(wage, education, experience, ethnicity\) değişkenlerine sahip olduğundan temel modeli şu şekilde kurgulayabiliriz:

\(ln(wage)=\beta_0 + \beta_1 \: experience+ \beta_2 \: experience^2 + \beta_3 \: education + \beta_4 \: ethnicity + \varepsilon\)

En düşük kareler tahmini:


Call:
lm(formula = log(wage) ~ experience + I(experience^2) + education + 
    ethnicity, data = CPS1988)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.9428 -0.3162  0.0580  0.3756  4.3830 

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)      4.321e+00  1.917e-02  225.38   <2e-16 ***
experience       7.747e-02  8.800e-04   88.03   <2e-16 ***
I(experience^2) -1.316e-03  1.899e-05  -69.31   <2e-16 ***
education        8.567e-02  1.272e-03   67.34   <2e-16 ***
ethnicityafam   -2.434e-01  1.292e-02  -18.84   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.5839 on 28150 degrees of freedom
Multiple R-squared:  0.3347,    Adjusted R-squared:  0.3346 
F-statistic:  3541 on 4 and 28150 DF,  p-value: < 2.2e-16

Regresyon Katsayısı CI
Değişken	2.5%	97.5%
(Intercept)	4.28381	4.35898
experience	0.07575	0.07920
I(experience^2)	-0.00135	-0.00128
education	0.08318	0.08817
ethnicityafam	-0.26868	-0.21804

Örnekleme (Bootstrapped) tahminlerinin güvenlik aralığı (1000 bootstrap tekrarı ile):

Örnekleme (Bootstrapped) Regresyon Katsayıları CI
Değişken	2.5%	97.5%
(Intercept)	4.28110	4.36191
experience	0.07548	0.07948
I(experience^2)	-0.00136	-0.00127
education	0.08297	0.08836
ethnicityafam	-0.26951	-0.21739

Yoğunluk tahmini ise:

IVA 510 Çapraz Doğrulama ve Bootstrapping

Ön Okumalar

Öğrenme Hedefleri

Doğrulama Yaklaşımı

Gösterim için Bir Örnek

Gösterim için Bir Örnek

Gösterim için Bir Örnek

Örnek

Birini-Dışarda-Bırak Çapraz Doğrulama (LOOCV)

k-Fold Çapraz Doğrulama

Örnekleme (Bootstrapping)

Örnekleme (Bootstrap): Örnek (ISLR, page 187)

Örnekleme (Bootstrap) Regresyon Örneği

IVA 510

Çapraz Doğrulama ve Bootstrapping